지식 표현의 흐름
Knowledge Representation
"컴퓨터에게 지식을 가르치려는 시도"는 AI의 시작부터 지금까지 이어지고 있습니다.
사람은 "참새는 새다, 새는 날 수 있다"라는 두 문장만 들어도
"참새는 날 수 있다"는 결론을 바로 내립니다.
하지만 컴퓨터는 다릅니다.
"참새"가 뭔지, "새"가 뭔지, "날 수 있다"가 어떤 의미인지
하나하나 명시적으로 표현해줘야 비로소 같은 결론을 내릴 수 있어요.
지식 표현(Knowledge Representation)이란
사람이 알고 있는 지식을
컴퓨터가 처리할 수 있는 형식으로 바꾸는 것입니다.
여기서 핵심은 단순히 데이터를 저장하는 게 아니라,
의미와 관계까지 표현해서 컴퓨터가 "추론"할 수 있게 만드는 것이에요.
이 문제는 AI가 태어난 1950년대부터 지금까지
계속 풀어오고 있는 AI의 핵심 과제입니다.
데이터 저장 = "홍길동, 카카오, 개발자"를 테이블에 넣는 것
지식 표현 = "홍길동은 카카오 소속 개발자이며, 개발자는 IT종사자다"를 컴퓨터가 이해하게 만드는 것
우리가 공부하는 지식 그래프와 온톨로지는
바로 이 "지식 표현"의 최신 형태입니다.
"컴퓨터에게 지식을 가르치자"는 아이디어는
시대마다 다른 방법으로 시도되어 왔습니다.
전문가 시스템 (Expert Systems)
"전문가의 지식을 규칙으로 코딩하자"
의사, 변호사 같은 전문가의 판단 과정을
IF-THEN 규칙으로 하나씩 프로그래밍했습니다.
MYCIN — 혈액 감염 진단 시스템
"만약 환자의 혈액에서 X균이 발견되고,
환자가 면역 저하 상태라면 → Y 항생제를 처방하라"
Cyc — 인간의 상식을 모두 코딩하려는 시도
"사람은 죽는다", "물은 아래로 흐른다" 같은
상식을 수백만 개의 규칙으로 입력
한계: 지식 병목(Knowledge Bottleneck)
규칙을 사람이 일일이 만들어야 했습니다.
전문가가 아는 모든 것을 규칙화하는 건 현실적으로 불가능했어요.
규칙이 수천 개를 넘어가면 서로 충돌하고, 유지보수도 어려워졌습니다.
시맨틱 웹 (Semantic Web)
"기계가 이해할 수 있는 웹을 만들자"
웹의 창시자 팀 버너스-리(Tim Berners-Lee)는
"웹 페이지는 사람만 읽을 수 있다"는 문제를 인식했습니다.
그의 비전은 이랬어요.
"웹의 모든 정보에 의미를 부여해서,
컴퓨터가 스스로 정보를 찾고 조합하게 만들자."
이 비전을 실현하기 위해 만들어진 표준들이 바로
RDF (데이터를 트리플로 표현),
OWL (개념 간 관계와 규칙 정의),
SPARQL (의미 기반 질의 언어)입니다.
한계: 이상은 웅장했지만, 현실은 달랐습니다
일반 웹 개발자가 쓰기엔 너무 복잡했고,
RDF로 데이터를 변환하는 비용이 너무 컸어요.
"웹 전체를 의미화하겠다"는 목표 자체가 지나치게 야심적이었습니다.
하지만 이때 만들어진 RDF, OWL, SPARQL은
지금도 온톨로지와 지식 그래프의 핵심 기술로 살아있습니다.
지식 그래프의 실용화
"온톨로지 이론을 실용 제품으로 전환하자"
시맨틱 웹이 "웹 전체"를 바꾸는 데는 실패했지만,
그 기술을 특정 도메인에 집중하면 강력하다는 걸
기업들이 알아차리기 시작합니다.
Google Knowledge Graph (2012)
"검색어가 아니라 의미를 검색한다"
"바흐"를 검색하면 단순 키워드 매칭이 아니라
작곡가 정보, 대표곡, 관련 인물을 구조화해서 보여줍니다.
Wikidata (2012)
위키피디아의 구조화된 지식 베이스.
전 세계 누구나 편집 가능한 개방형 지식 그래프입니다.
전환점
"시맨틱 웹의 기술은 살아남았지만, 적용 범위가 바뀌었다."
웹 전체가 아니라, 검색 · 추천 · 의료 · 금융 같은
구체적인 문제 영역에서 지식 그래프가 빛을 발하기 시작했습니다.
LLM 시대의 재조명
"LLM의 약점을 지식 그래프가 보완한다"
GPT, Claude 같은 LLM이 등장하면서
"지식 표현"의 가치가 다시 주목받고 있습니다.
LLM의 지식 저장 방식
LLM은 수십억 개의 파라미터 안에 지식을 암묵적으로 저장합니다.
어떤 지식이 어디에 들어있는지 확인할 수 없고,
틀린 지식을 정확히 찾아서 수정하는 것도 불가능합니다.
지식 그래프의 지식 저장 방식
지식 그래프는 모든 지식을 명시적으로 저장합니다.
어떤 사실이 어디에 있는지 바로 확인할 수 있고,
틀린 정보는 찾아서 수정하거나 삭제할 수 있습니다.
GraphRAG의 등장
LLM의 자연어 이해 능력 + 지식 그래프의 검증된 사실.
이 둘을 결합한 것이 바로 GraphRAG입니다.
시맨틱 웹이 꿈꿨던 "기계가 이해하는 지식"이
LLM 덕분에 비로소 현실이 되고 있는 셈이에요.
50년간 이어져 온 지식 표현의 역사에서
지금이 가장 중요한 시점인 이유가 있습니다.
과거의 한계가 지금은 해결되고 있다
전문가 시스템의 한계 — 규칙을 사람이 일일이 만들어야 했다
→ 지금은 LLM이 텍스트에서 지식을 자동 추출할 수 있습니다.
시맨틱 웹의 한계 — 데이터를 RDF로 변환하는 비용이 너무 컸다
→ 지금은 Neo4j 같은 GraphDB로 훨씬 쉽게 그래프를 구축할 수 있습니다.
지식 그래프의 한계 — 자연어 질의를 처리하기 어려웠다
→ 지금은 LLM이 자연어를 쿼리로 변환(Text2Cypher)할 수 있습니다.
LLM과 지식 그래프는 서로의 약점을 채운다
LLM의 약점
지식이 파라미터 안에 숨어있어서 검증이 불가능합니다.
근거 없이 그럴듯한 답을 만들어내는 환각 문제가 있습니다.
지식 그래프의 약점
자연어를 이해하지 못합니다.
사용자가 SPARQL이나 Cypher 같은 질의 언어를 알아야 합니다.
둘을 합치면?
사용자가 자연어로 질문하면 → LLM이 이해하고
→ 지식 그래프에서 검증된 사실을 찾아서
→ 근거 있는 답변을 생성합니다.
이것이 GraphRAG의 핵심 구조입니다.
전문가 시스템이 씨앗을 뿌렸고,
시맨틱 웹이 표준을 만들었고,
지식 그래프가 실용화했고,
LLM이 마지막 퍼즐을 채우고 있습니다.
우리가 공부하는 지식 그래프와 온톨로지는
이 50년 역사의 최신 장(chapter)입니다.
| 시대 | 접근 방식 | 지식 저장 | 한계 |
|---|---|---|---|
| 1970~80s | 전문가 시스템 IF-THEN 규칙 |
사람이 규칙을 직접 코딩 | 지식 병목 — 규칙 수동 작성의 한계 |
| 1990~2000s | 시맨틱 웹 RDF / OWL / SPARQL |
트리플 기반 의미 표현 | 너무 복잡, 대규모 채택 실패 |
| 2010s | 지식 그래프 실용화 Google KG, Wikidata |
그래프 구조 + 도메인 특화 | 자연어 질의 처리 어려움 |
| 2020s~ | GraphRAG LLM + 지식 그래프 |
명시적 지식 + 자연어 인터페이스 | 현재 활발히 발전 중 |
- 지식 표현(Knowledge Representation)은 사람의 지식을 컴퓨터가 처리할 수 있는 형식으로 바꾸는 것입니다. AI의 시작부터 지금까지 이어지는 핵심 과제입니다.
- 전문가 시스템은 IF-THEN 규칙으로 지식을 코딩했지만, 사람이 일일이 만들어야 하는 지식 병목 문제에 부딪혔습니다.
- 시맨틱 웹은 RDF, OWL, SPARQL이라는 강력한 표준을 만들었지만, "웹 전체를 의미화하겠다"는 목표가 너무 야심적이었습니다.
- 지식 그래프는 시맨틱 웹의 기술을 특정 도메인에 집중 적용해서 실용적 성과를 냈습니다. Google Knowledge Graph(2012)가 대표적입니다.
- LLM 시대에 지식 그래프가 다시 주목받는 이유는, LLM의 환각 문제를 검증 가능한 명시적 지식으로 보완할 수 있기 때문입니다.
- GraphRAG는 이 50년 역사의 집대성입니다. LLM의 자연어 이해 + 지식 그래프의 검증된 사실을 결합합니다.